在启用语音的应用程序中,一个预定的热词在同时用来激活设备以便进行查询。 toavoid重复一个热词,我们提出了一个端到端的流(E2E)打算查询检测器,该查询检测器识别向设备指向的发音,并滤除针对设备的其他发出内容。提出的方法将预期的查询检测器置于E2E模型中,该模型将语音识别的不同组件折叠成一个神经网络。E2E对台面解码和预期的查询检测进行建模,也使我们可以基于早期的部分偏置检测结果, ,这对于减少潜伏期和使系统响应很重要。我们证明,与独立的预期检测器相比,检测准确性和600个MSLATENCE的相对相对改善的相对提高一级误差率(EER)的相对提高了22%。在我们的实验中,提出的模型检测用户正在用用户开始讲话后,用8.7%的Eerwithin与设备进行对话。
translated by 谷歌翻译